自适应交通 - 信号控制的大多数强化学习方法都需要从头开始培训,或在任何新的交叉点上或对道路网络,交通分布或培训期间经历的行为约束进行任何修改后。考虑到1)训练此类方法所需的大量经验,以及2)必须通过与真实的道路网络用户进行探索方式来收集经验,因此缺乏可转移性限制的实验和适用性。最近的方法使学习政策能够概括为看不见的道路网络拓扑和交通分布,从而部分应对这一挑战。但是,文献保持在循环的学习(十字路口的连通性的演变必须尊重周期)和无环(较少约束)策略之间的分配,而这些可转移的方法1)仅与循环约束兼容,2)不启用启用。协调。我们介绍了一种新的基于模型的方法Mujam,该方法首次启用了显式配位,该方法首次启用了显式协调,还通过允许对控制器的约束进行概括,进一步推动概括。在涉及道路网络和培训期间从未经历过的交通设置的零拍传输设置中,以及在曼哈顿控制3,971个交通信号控制器的更大转移实验中,我们表明,Mujam使用环状和无循环约束,均优于范围 - 特异性基准以及另一种可转移方法。
translated by 谷歌翻译